13 research outputs found

    Low Complexity Interpolation Filters for Motion Estimation and Application to the H.264 Encoders

    Get PDF
    Techniques for image super-resolution play an important role in a plethora of applications, which include video compression and motion estimation. The detection of the fractional displacements among frames facilitates the removal of temporal redundancy and improves the video quality by 2-4 dB PSNR. However, the increased complexity of the Fractional Motion Estimation (FME) process adds a significant computational load to the encoder and sets constraints to real-time designs. Researchers have performed timing analysis for the motion estimation process and they reported that FME accounts for almost half of the entire motion estimation period, which in turn accounts for 60-90% of the total encoding time depending on the design configuration

    Παράλληλες Διεργασίες και Εφαρμογές σε Επεξεργασία Εικόνων και Εικονορροών

    Get PDF
    Οι ταχέως εξελισσόμενες εφαρμογές επεξεργασίας εικονορροών εισαγάγουν απαιτήσεις υψηλής ποιότητας εικόνας, χαμηλού δυφιορρυθμού ή/και χαμηλού υπολογιστικού κόστους. Η τρέχουσα διατριβή μελετά το πεδίο της Υπερ-Ανάλυσης υπό το πρίσμα της μειωμένης πολυπλοκότητας, με σκοπό την παρουσίαση, την αποτίμηση επιδόσεων και την υλοποίηση παραλληλοποιήσιμων μεθόδων και τεχνικών. Επιπλέον, στοχεύει στην εφαρμογή αυτών των μεθόδων σε ένα γενικότερο πλαίσιο επεξεργασίας α) εικόνων και β) εικονορροών με συμπίεση αποδεκάτισης-κβάντισης. Τέλος, μελετά τα απτά αποτελέσματα των τεχνικών αυτών σε πλατφόρμες επιτάχυνσης υλικού. Για το σκοπό αυτό, αρχικά μελετώνται τεχνικές υπερ-ανάλυσης χαμηλής πολυπλοκότητας προκειμένου να επιτευχθεί βελτίωση στη διαδικασία εκτίμησης κίνησης των κωδικοποιητών εικονορροών. Παρουσιάζονται τεχνικές παρεμβολής μειωμένου κόστους σε σύγκριση με το πρότυπο φίλτρο 6 δειγμάτων, με απώτερο στόχο την επιτάχυνση της παραγωγής των πλακιδίων κατά τη διαδικασία αναζήτησης. Η απόδοση των τεχνικών αυτών συγκρίνεται με αυτή των ευρέως διαδεδομένων τεχνικών ως προς την προκύπτουσα ποιότητα και το χρόνο επεξεργασίας. Η μελέτη βασίζεται στη χρήση ενός τυπικού αλγορίθμου κλασματικής εκτίμησης κίνησης για το πρότυπο H.264/AVC, και επομένως, ευνοεί το σχεδιασμό κωδικοποιητών βασισμένων στο πρότυπο αυτό. Κατόπιν, συνδυάζονται υπερσύγχρονες μέθοδοι υπερ-ανάλυσης και κωδικοποίησης με στόχο τη βελτίωση της αποτελεσματικότητας του κωδικοποιητή και την ελάττωση της πολυπλοκότητας. Η προτεινόμενη προσέγγιση βελτιώνει το γενικευμένο σχήμα συμπίεσης με αποδεκάτιση και κβάντιση, αφενός εισαγάγοντας τεχνικές υπερ-ανάλυσης χαμηλής πολυπλοκότητας για την υπερδειγματοληψία των δεδομένων στην πλευρά του αποκωδικοποιητή, αφετέρου εξερευνώντας και βελτιστοποιώντας τις διεργασίες αποδεκάτισης / υπερδειγματοληψίας. Σε σχέση με το συμβατικό σχήμα κωδικοποίησης, το εμπλουτισμένο σχήμα επιτυγχάνει βελτίωση της ποιότητας και της πολυπλοκότητας, ενώ μπορεί εύκολα να παραμετροποιηθεί προκειμένου να υποστηρίζει οποιοδήποτε υφιστάμενο σχήμα κωδικοαποκωδίκευσης όπως το Η.264/AVC και το HEVC. Η προτεινόμενη προσέγγιση βασίζεται αρχικά στη μελέτη της παραμετροποίησης του γενικευμένου σχήματος με ευρέως διαδεδομένες τεχνικές μετασχηματισμού διαστάσεων, επιτυγχάνοντας βελτιωμένη τιμή κορυφής λόγου σήματος-θορύβου κατά 2 έως 4 dB σε σχέση με τα συμβατικά σχήματα. Εν συνεχεία εισαγάγεται ο αλγόριθμος L-SEABI, ένας νέος αλγόριθμος υπερ-ανάλυσης μέσω του οποίο αυξάνεται η τιμή του κρίσιμου δυφιορρυθμού στο επίπεδο των 10 Mb/s. Ο αλγόριθμος αποτιμάται και σε σύγκριση με άλλες λύσεις υπερδειγματοληψίας από τη βιβλιογραφία. Τα αποτελέσματα καταδεικνύουν βελτίωση της ποιότητας κατά 5 dB σε σχέση με τις απλές τεχνικές παρεμβολής και ελάττωση του χρόνου υπολογισμού κατά τρεις τάξεις μεγέθους σε σχέση με τις μεθόδους τεχνολογικής αιχμής. Τέλος, βασιζόμενοι στα χαρακτηριστικά του αλγορίθμου L-SEABI εισαγάγουμε τεχνικές παραλληλοποίησης για υλοποιήσεις σε μονάδες επεξεργασίας γραφικών και συστοιχίες επιτόπια προγραμματιζόμενων πυλών. Οι προτεινόμενες τεχνικές επιταχύνουν την ανακατασκευή περιεχομένου υπερ-υψηλής ευκρίνειας, επιτυγχάνοντας τριπλάσια απόδοση από τη συμβατική απαίτηση πραγματικού χρόνου σε μονάδες επεξεργασίας γραφικών μέσης απόδοσης και τουλάχιστον εννεαπλάσια απόδοση σε μονάδες επεξεργασίας γραφικών υψηλής απόδοσης. Αντίστοιχα αποτελέσματα της υλοποίησης σε FPGA καταδεικνύουν τετραπλασιασμό της απόδοσης των συμβατικών απαιτήσεων πραγματικού χρόνου σε μονάδες χαμηλής απόδοσης / κατανάλωσης και 69 φορές ταχύτερη απόδοση στη μονάδα Virtex 7 2000t.Evolving video applications impose requirements for high image quality, low bitrate, and/or small computational cost. The current thesis involves the study of Super-Resolution techniques under the scope of reduced complexity aiming to present, evaluate and implement parallelizable methods and techniques. Moreover, it aims to apply these techniques to a more generic framework of processing a) images and b) video sequences with decimation and quantization. Finally, it studies these methods' implementation feasibility on hardware acceleration platforms. To that end, we initially study low-complexity image super-resolution techniques for improving the motion estimation process of video encoding. Aiming at speeding up the generation of candidate blocks during the computationally intensive search algorithm, we present interpolation techniques with reduced cost compared to standard 6-tap filtering procedures. Furthermore, we compare their performance to that of commonly used half-pixel interpolation techniques with respect to the resulting image quality and the processing time. The research has been based on using a typical fractional motion estimation algorithm preceding the processing of the H.264/AVC standard motion compensation, and thus, the research benefits the design of H.264/AVC encoders. Next, we combine state-of-the-art coding and super-resolution (SR) techniques to improve video compression both in terms of coding efficiency and complexity. The proposed approach improves a generic decimation-quantization compression scheme by introducing low complexity single-image SR techniques for rescaling the data at the decoder side and by jointly exploring/optimizing the downsampling/upsampling processes. The enhanced scheme achieves improvement of the quality and system's complexity compared with conventional codecs and can be easily modified to meet various diverse requirements, such as effectively supporting any off-the-shelf video codec, for instance H.264/Advanced Video Coding or High Efficiency Video Coding. Our approach builds on studying the generic scheme's parameterization with common rescaling techniques to achieve 2.4-dB peak signal-to-noise ratio (PSNR) quality improvement at low-bitrates compared with the conventional codecs and proposes L-SEABI, a novel SR algorithm to advance the critical bitrate at the level of 10 Mb/s. The evaluation of the SR algorithm includes the comparison of its performance to other image rescaling solutions of the literature. The results show quality improvement by 5 dB PSNR over straight-forward interpolation techniques and computational time reduction by three orders of magnitude when compared with the highly involved methods of the field. Finally, the study builds up on the characteristics of the L-SEABI SR method to introduce parallelization techniques for GPUs and FPGAs. The proposed techniques accelerate GPU reconstruction of ultra-high definition content, by achieving three (3×) times faster than the real-time performance on mid-range and previous generation devices and at least nine times (9×) faster than the real-time performance on high-end GPUs. The FPGA design leads to a scalable architecture performing four (4×) times faster than the real-time on low-end Xilinx Virtex 5 devices and 69 times (69×) faster than the real-time on the Virtex 2000t

    Parallel processes and applications in image and video processing

    No full text
    Evolving video applications impose requirements for high image quality, low bitrate, and/or small computational cost. The current thesis involves the study of Super-Resolution techniques under the scope of reduced complexity aiming to present, evaluate and implement parallelizable methods and techniques. Moreover, it aims to apply these techniques to a more generic framework of processing a) images and b) video sequences with decimation and quantization. Finally, it studies these methods' implementation feasibility on hardware acceleration platforms. To that end, we initially study low-complexity image super-resolution techniques for improving the motion estimation process of video encoding. Aiming at speeding up the generation of candidate blocks during the computationally intensive search algorithm, we present interpolation techniques with reduced cost compared to standard 6-tap filtering procedures. Furthermore, we compare their performance to that of commonly used half-pixel interpolation techniques with respect to the resulting image quality and the processing time. The research has been based on using a typical fractional motion estimation algorithm preceding the processing of the H.264/AVC standard motion compensation, and thus, the research benefits the design of H.264/AVC encoders. Next, we combine state-of-the-art coding and super-resolution (SR) techniques to improve video compression both in terms of coding efficiency and complexity. The proposed approach improves a generic decimation-quantization compression scheme by introducing low complexity single-image SR techniques for rescaling the data at the decoder side and by jointly exploring/optimizing the downsampling/upsampling processes. The enhanced scheme achieves improvement of the quality and system's complexity compared with conventional codecs and can be easily modified to meet various diverse requirements, such as effectively supporting any off-the-shelf video codec, for instance H.264/Advanced Video Coding or High Efficiency Video Coding. Our approach builds on studying the generic scheme's parameterization with common rescaling techniques to achieve 2.4-dB peak signal-to-noise ratio (PSNR) quality improvement at low-bitrates compared with the conventional codecs and proposes L-SEABI, a novel SR algorithm to advance the critical bitrate at the level of 10 Mb/s. The evaluation of the SR algorithm compares its performance to other image rescaling solutions of the literature, showing quality improvement by 5 dB PSNR over straight-forward interpolation techniques and computational time reduction by three orders of magnitude compared with the highly involved methods of the field. Finally, the study builds up on the characteristics of the L-SEABI SR method to introduce parallelization techniques for GPUs and FPGAs. The proposed techniques accelerate GPU reconstruction of ultra-high definition content, by achieving three times faster than the real-time performance on mid-range and previous generation devices and at least nine times faster than the real-time performance on high-end GPUs. The FPGA design leads to a scalable architecture performing four times faster than the real-time on low-end Xilinx Virtex 5 devices and 69 times faster than the real-time on the Virtex 2000t.Οι ταχέως εξελισσόμενες εφαρμογές επεξεργασίας εικονορροών εισαγάγουν απαιτήσεις υψηλής ποιότητας εικόνας, χαμηλού δυφιορρυθμού ή/και χαμηλού υπολογιστικού κόστους. Η τρέχουσα διατριβή μελετά το πεδίο της Υπερ-Ανάλυσης υπό το πρίσμα της μειωμένης πολυπλοκότητας, με σκοπό την παρουσίαση, την αποτίμηση επιδόσεων και την υλοποίηση παραλληλοποιήσιμων μεθόδων και τεχνικών. Επιπλέον, στοχεύει στην εφαρμογή αυτών των μεθόδων σε ένα γενικότερο πλαίσιο επεξεργασίας α) εικόνων και β) εικονορροών με συμπίεση αποδεκάτισης-κβάντισης. Τέλος, μελετά τα απτά αποτελέσματα των τεχνικών αυτών σε πλατφόρμες επιτάχυνσης υλικού. Για το σκοπό αυτό, αρχικά μελετώνται τεχνικές υπερ-ανάλυσης χαμηλής πολυπλοκότητας προκειμένου να επιτευχθεί βελτίωση στη διαδικασία εκτίμησης κίνησης των κωδικοποιητών εικονορροών. Παρουσιάζονται τεχνικές παρεμβολής μειωμένου κόστους σε σύγκριση με το πρότυπο φίλτρο 6 δειγμάτων, με απώτερο στόχο την επιτάχυνση της παραγωγής των πλακιδίων κατά τη διαδικασία αναζήτησης. Η απόδοση των τεχνικών αυτών συγκρίνεται με αυτή των ευρέως διαδεδομένων τεχνικών ως προς την προκύπτουσα ποιότητα και το χρόνο επεξεργασίας. Η μελέτη βασίζεται στη χρήση ενός τυπικού αλγορίθμου κλασματικής εκτίμησης κίνησης για το πρότυπο H.264/AVC, και επομένως, ευνοεί το σχεδιασμό κωδικοποιητών βασισμένων στο πρότυπο αυτό. Κατόπιν, συνδυάζονται υπερσύγχρονες μέθοδοι υπερ-ανάλυσης και κωδικοποίησης με στόχο τη βελτίωση της αποτελεσματικότητας του κωδικοποιητή και την ελάττωση της πολυπλοκότητας. Η προτεινόμενη προσέγγιση βελτιώνει το γενικευμένο σχήμα συμπίεσης με αποδεκάτιση και κβάντιση, αφενός εισαγάγοντας τεχνικές υπερ-ανάλυσης χαμηλής πολυπλοκότητας για την υπερδειγματοληψία των δεδομένων στην πλευρά του αποκωδικοποιητή, αφετέρου εξερευνώντας και βελτιστοποιώντας τις διεργασίες αποδεκάτισης / υπερδειγματοληψίας. Σε σχέση με το συμβατικό σχήμα κωδικοποίησης, το εμπλουτισμένο σχήμα επιτυγχάνει βελτίωση της ποιότητας και της πολυπλοκότητας, ενώ μπορεί εύκολα να παραμετροποιηθεί προκειμένου να υποστηρίζει οποιοδήποτε υφιστάμενο σχήμα κωδικοαποκωδίκευσης όπως το Η.264/AVC και το HEVC. Η προτεινόμενη προσέγγιση βασίζεται αρχικά στη μελέτη της παραμετροποίησης του γενικευμένου σχήματος με ευρέως διαδεδομένες τεχνικές μετασχηματισμού διαστάσεων, επιτυγχάνοντας βελτιωμένη τιμή κορυφής λόγου σήματος-θορύβου κατά 2 έως 4 dB σε σχέση με τα συμβατικά σχήματα. Εν συνεχεία εισαγάγεται ο αλγόριθμος L-SEABI, ένας νέος αλγόριθμος υπερ-ανάλυσης μέσω του οποίο αυξάνεται η τιμή του κρίσιμου δυφιορρυθμού στο επίπεδο των 10 Mb/s. Ο αλγόριθμος αποτιμάται και σε σύγκριση με άλλες λύσεις υπερδειγματοληψίας από τη βιβλιογραφία. Τα αποτελέσματα καταδεικνύουν βελτίωση της ποιότητας κατά 5 dB σε σχέση με τις απλές τεχνικές παρεμβολής και ελάττωση του χρόνου υπολογισμού κατά τρεις τάξεις μεγέθους σε σχέση με τις μεθόδους τεχνολογικής αιχμής. Τέλος, βασιζόμενοι στα χαρακτηριστικά του αλγορίθμου L-SEABI εισαγάγουμε τεχνικές παραλληλοποίησης για υλοποιήσεις σε μονάδες επεξεργασίας γραφικών και συστοιχίες επιτόπια προγραμματιζόμενων πυλών. Οι προτεινόμενες τεχνικές επιταχύνουν την ανακατασκευή περιεχομένου υπερ-υψηλής ευκρίνειας, επιτυγχάνοντας τριπλάσια απόδοση από τη συμβατική απαίτηση πραγματικού χρόνου σε μονάδες επεξεργασίας γραφικών μέσης απόδοσης και τουλάχιστον εννεαπλάσια απόδοση σε μονάδες επεξεργασίας γραφικών υψηλής απόδοσης. Αντίστοιχα αποτελέσματα της υλοποίησης σε FPGA καταδεικνύουν τετραπλασιασμό της απόδοσης των συμβατικών απαιτήσεων πραγματικού χρόνου σε μονάδες χαμηλής ολοκλήρωσης και 69 φορές ταχύτερη απόδοση στη μονάδα Virtex 7 2000t

    Acceleration Techniques and Evaluation on Multicore CPU, GPU and FPGA for Image Processing and Super-Resolution

    No full text
    Super-Resolution (SR) techniques constitute a key element in image applications, which need high- resolution reconstruction while in the worst case only a single low-resolution observation is available. SR techniques involve computationally demanding processes and thus researchers are currently focusing on SR performance acceleration. Aiming at improving the SR performance, the current paper builds up on the characteristics of the L-SEABI Super-Resolution (SR) method to introduce parallelization techniques for GPUs and FPGAs. The proposed techniques accelerate GPU reconstruction of Ultra-High Definition content, by achieving three (3x) times faster than the real-time performance on mid-range and previous generation devices and at least nine times (9x) faster than the real-time performance on high-end GPUs. The FPGA design leads to a scalable architecture performing four (4x) times faster than the real-time on low-end Xilinx Virtex 5 devices and sixty-nine times (69x) faster than the real-time on the Virtex 2000t. Moreover, we confirm the benefits of the proposed acceleration techniques by employing them on a different category of image-processing algorithms: on window-based Disparity functions, for which the proposed GPU technique shows an improvement over the CPU performance ranging from 14 times (14x) to 64 times (64x) while the proposed FPGA architecture provides 29x acceleration

    Acceleration Techniques and Evaluation on Multicore CPU, GPU and FPGA for Image Processing and Super-Resolution

    Get PDF
    Super-Resolution (SR) techniques constitute a key element in image applications, which need high- resolution reconstruction while in the worst case only a single low-resolution observation is available. SR techniques involve computationally demanding processes and thus researchers are currently focusing on SR performance acceleration. Aiming at improving the SR performance, the current paper builds up on the characteristics of the L-SEABI Super-Resolution (SR) method to introduce parallelization techniques for GPUs and FPGAs. The proposed techniques accelerate GPU reconstruction of Ultra-High Definition content, by achieving three (3x) times faster than the real-time performance on mid-range and previous generation devices and at least nine times (9x) faster than the real-time performance on high-end GPUs. The FPGA design leads to a scalable architecture performing four (4x) times faster than the real-time on low-end Xilinx Virtex 5 devices and sixty-nine times (69x) faster than the real-time on the Virtex 2000t. Moreover, we confirm the benefits of the proposed acceleration techniques by employing them on a different category of image-processing algorithms: on window-based Disparity functions, for which the proposed GPU technique shows an improvement over the CPU performance ranging from 14 times (14x) to 64 times (64x) while the proposed FPGA architecture provides 29x acceleration

    Geosphere: an Exact Depth-First Sphere Decoder Architecture Scalable to Very Dense Constellations

    No full text
    This paper presents the algorithmic design, experimental evaluation, and VLSI implementation of Geosphere, a depth-first sphere decoder able to provide the exact maximumlikelihood solution in dense (e.g., 64) and very dense (e.g., 256, 1024) QAM constellations by means of a geometrically inspired enumeration. In general, linear detection methods can be highly effective when the MIMO channel is well-conditioned. However, this is not the case when the size of the MIMO system increases and the number of transmit antennas approaches the number of the receive antennas. Via our WARP testbed implementation we gather indoor channel traces in order to evaluate the performance gains of sphere detection against zero-forcing and MMSE in an actual indoor environment. We show that Geosphere can nearly linearly scale performance with the number of user antennas; in 4 × 4 multi-user MIMO for 256-QAM modulation at 30 dB SNR there is a 1.7× gain over MMSE and 2.4× over zeroforcing and a 14% and 22% respective gain in 2 × 2 systems. In addition, by using a new node labeling based enumeration technique, low-complexity integer arithmetic and fine-grained clock gating, we implement for up to 1024-QAM constellations and compare in terms of area, delay, power characteristics, the Geosphere VLSI architecture and the best-known best-scalable exact ML sphere decoder. Results show that Geosphere is twice as area-efficient and 70% more energy efficient in 1024-QAM. Even for 16-QAM Geosphere is 13% more area efficient than the best-known implementation for 16-QAM and it is at least 80% more area efficient than state-of-the-art K-best detectors for 64-QAM

    A DSP ACCELERATION FRAMEWORK FOR SOFTWARE-DEFINED RADIOS ON X86 64

    Get PDF
    This paper presents a DSP acceleration and assessment framework targeting SDR platforms on x86 64 architectures. Driven by the potential of rapid prototyping and evaluation of breakthrough concepts that these platforms provide, our work builds upon the wellknown OpenAirInterface codebase, extending it for advanced, previously unsupported modes towards large and massive MIMO such as non-codebook-based multi-user transmissions. We then develop an acceleration/profiling framework, through which we present finegrained execution results for DSP operations. Incorporating the latest SIMD instructions, our acceleration framework achieves a unitary speedup of up to 10. Integrated into OpenAirInterface, it accelerates computationally expensive MIMO operations by up to 88% across tested modes. Besides resulting in a useful tool for the community, this work provides insight on runtime DSP complexity and the potential of modern x86 64 systems

    A DSP ACCELERATION FRAMEWORK FOR SOFTWARE-DEFINED RADIOS ON X86 64

    No full text
    This paper presents a DSP acceleration and assessment framework targeting SDR platforms on x86 64 architectures. Driven by the potential of rapid prototyping and evaluation of breakthrough concepts that these platforms provide, our work builds upon the wellknown OpenAirInterface codebase, extending it for advanced, previously unsupported modes towards large and massive MIMO such as non-codebook-based multi-user transmissions. We then develop an acceleration/profiling framework, through which we present finegrained execution results for DSP operations. Incorporating the latest SIMD instructions, our acceleration framework achieves a unitary speedup of up to 10. Integrated into OpenAirInterface, it accelerates computationally expensive MIMO operations by up to 88% across tested modes. Besides resulting in a useful tool for the community, this work provides insight on runtime DSP complexity and the potential of modern x86 64 systems

    Massively Parallel Tree Search for High-Dimensional Sphere Decoders

    Get PDF
    The recent paradigm shift towards the transmission of large numbers of mutually interfering information streams, as in the case of aggressive spatial multiplexing, combined with requirements towards very low processing latency despite the frequency plateauing of traditional processors, initiates a need to revisit the fundamental maximum-likelihood (ML) and, consequently, the sphere-decoding (SD) detection problem. This work presents the design and VLSI architecture of MultiSphere; the first method to massively parallelize the tree search of large sphere decoders in a nearly-concurrent manner, without compromising their maximum-likelihood performance, and by keeping the overall processing complexity comparable to that of highly-optimized sequential sphere decoders. For a 10 ⇥ 10 MIMO spatially multiplexed system with 16-QAM modulation and 32 processing elements, our MultiSphere architecture can reduce latency by 29⇥ against well-known sequential SDs, approaching the processing latency of linear detection methods, without compromising ML optimality. In MIMO multicarrier systems targeting exact ML decoding, MultiSphere achieves processing latency and hardware efficiency that are orders of magnitude improved compared to approaches employing one SD per subcarrier. In addition, for 16⇥16 both “hard”- and “soft”-output MIMO systems, approximate MultiSphere versions are shown to achieve similar error rate performance with state-of-the art approximate SDs having akin parallelization properties, by using only one tenth of the processing elements, and to achieve up to approximately 9⇥ increased energy efficiency
    corecore